# -*- coding: utf-8 -*-
# @Time : 2021/6/30 下午3:57
# @Author : fugang_le

'''
https://github.com/ownthink/Jiagu
Jiagu使用大规模语料训练而成。将提供中文分词、词性标注、命名实体识别、情感分析、知识图谱关系抽取、关键词抽取、文本摘要、新词发现、情感分析、
文本聚类等常用自然语言处理功能。参考了各大工具优缺点制作，将Jiagu回馈给大家。
'''

# import jiagu
#
# #jiagu.init() # 可手动初始化，也可以动态初始化
#
# text = '毛泽东去了北京看中国'
#
# words = jiagu.seg(text) # 分词
# print(words)
#
# pos = jiagu.pos(words) # 词性标注
# print(pos)
#
# ner = jiagu.ner(words) # 命名实体识别
# print(ner)

import jiagu
# 吻别是由张学友演唱的一首歌曲。
# 《盗墓笔记》是2014年欢瑞世纪影视传媒股份有限公司出品的一部网络季播剧，改编自南派三叔所著的同名小说，由郑保瑞和罗永昌联合导演，李易峰、杨洋、唐嫣、刘天佐、张智尧、魏巍等主演。

text = '姚明1980年9月12日出生于上海市徐汇区，祖籍江苏省苏州市吴江区震泽镇，前中国职业篮球运动员，司职中锋，现任中职联公司董事长兼总经理。'
knowledge = jiagu.knowledge(text)
print(knowledge)

import jiagu

docs = [
        "百度深度学习中文情感分析工具Senta试用及在线测试",
        "情感分析是自然语言处理里面一个热门话题",
        "AI Challenger 2018 文本挖掘类竞赛相关解决方案及代码汇总",
        "深度学习实践：从零开始做电影评论文本情感分析",
        "BERT相关论文、文章和代码资源汇总",
        "将不同长度的句子用BERT预训练模型编码，映射到一个固定长度的向量上",
        "自然语言处理工具包spaCy介绍",
        "现在可以快速测试一下spaCy的相关功能，我们以英文数据为例，spaCy目前主要支持英文和德文"
    ]
cluster = jiagu.text_cluster(docs)
print(cluster)